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Beschreibung 



Sprachriickmeldung bei der sprecherunabhangigen Namenswahl 

Die Technologie der Spracherkennung fur mobile Endgerate ist 
mittlerweile so weit fortgeschritten, dass es moglich ist, 
eine sprecherunabhangige Namenswahl (Speaker Independent Name 
Dialing) zu realisieren. Eintrage des Adressbuches konnen 
dabei direkt durch Sprechen des eingetragenen Namens gewah.lt 
werden, ohne dass zuvor beim Benutzer ein Training des 
Sprachmusters durchgeftihrt werden muss. 

Allerdings wird bei einer solchen Form der Spracherkennung 
der Hands free-Modus eingeschrankt, da der Benutzer zur 
Verifizierung des Erkennungsergebnisses auf die Rtickmeldung 
im Display angewiesen ist und keine akustische Rtickmeldung 
des erkannten Eintrages erhalt. 

Urn eine akustische Rtickmeldung fur die sprecherunabhangige 
Namenswahl zu realisieren, wird heute davon ausgegangen, dass 
Text-zu-Sprache (Text-to-Speech; TTS) -Komponenten zum Einsatz 
kommen mussen. Diese TTS-Komponenten generieren aus einem 
Text eine synthetische Sprachausgabe . Der erkannte 
Namenseintrag eines Adressbuches kann damit synthetisiert 
ausgegeben werden. Die einzusetzenden TTS-Komponenten 
benotigen jedoch eine fur mobile Endgerate und eingebettete 
Hardware hohe Rechenleistung sowie groflen Speicherbedarf und 
sind damit nur sehr kostenintensiv zu realisieren. Die 
Sprachqualitat solcher TTS-Systeme fur mobile Gerate ist 
dartiber hinaus wegen des kleinen Footprints auf einem 
geringen Niveau. Weiterhin werden auslandische Namen durch 
TTS-Systeme vielfach ungewohnt und fehlerhaft ausgesprochen. 

Davon ausgehend liegt der Erfindung die Aufgabe zugrunde, 
eine Sprachruckmeldung fur eine erkannte Spracheingabe 
moglichst ressourcenschonend zu realisieren. 



t 2003 P 03030 



2 



Diese Aufgabe wird durch die in den unabhangigen 
Patentanspriichen angegebenen Erfindungen gelost. Vorteilhafte 
Ausgestaltungen ergeben sich aus den UnteransprUchen . 

Dementsprechend wird in einem Verfahren zur Spracherkennung, 
insbesondere auf eingebetteter Hardware und/oder einem 
mobilen Endgerat, durch einen Benutzer ein erstes 
Sprachsignal mittels Einsprechen eingegeben. Die Bezeichnung 
„erstes* Sprachsignal dient lediglich dazu, das Sprachsignal 
im Rahmen dieses Textes von weiteren, folgenden 
Sprachsignalen zu unterscheiden. Das eingegebene erste 
Sprachsignal wird erkannt, indem es einem Erkennungseintrag 
zugeordnet wird, und aufgenommen, indem Daten abgespeichert 
werden, die zur akustischen Representation des Sprachsignals 
benotigt werden. Die Aufnahme des eingegebenen ersten 
Sprachsignals wird schliefllich als dem Erkennungseintrag 
zugeordnet gespeichert. Dadurch steht sie fur spatere 
Erkennungen als Be s tat igungs signal in Form einer 
Sprachruckmeldung zur Verftlgung. 



Vorzugsweise wird die Aufnahme des eingegebenen ersten 
Sprachsignals nur dann als dem Erkennungseintrag zugeordnet 
gespeichert, wenn vom Benutzer bestatigt wird, dass das 
eingegebene erste Sprachsignal richtig erkannt wurde. 
Alternativ oder erganzend kann die Abspeicherung eines 
falschlich einem Erkennungseintrag zugeordneten Sprachsignals 
spater auch wieder geloscht werden. 

Insbesondere vor der Bestatigung, dass das eingegebene 
Sprachsignal richtig erkannt wurde, lasst sich eine optische 
Representation des Erkennungseintrags auf einer Anzeige 
ausgeben. Der Benutzer kann dadurch die optische 
Representation des Erkennungseintrags lesen und danach 
bestatigen, dass das Sprachsignal richtig erkannt wurde. 



Nach dem Abspeichern und Erkennen des ursprtinglichen 
Sprachsignals gestalten sich Spracherkennungsvorgange 
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weiteren, dem ersten Sprachsignal gleichen oder ahnlichen 
Sprachsignalen wie folgt: Vom Benutzer wird ein weiteres 
Sprachsignal eingegeben. Das weitere eingegebene Sprachsignal 
wird erkannt, indent es dem Erkennungseintrag zugeordnet wird. 
Schliefilich wird die als dem Erkennungseintrag zugeordnet 
gespeicherte Aufnahme des eingegebenen ersten Sprachsignals 
zur Bestatigung, dass das weitere eingegebene Sprachsignal 
als der Erkennungseintrag erkannt wurde, akustisch 
ausgegeben. 



Zusatzlich zu der oben beschriebenen automatischen Zuordnung 
und Abspeicherung von Sprachsignalen kann dem Benutzer die 
Moglichkeit gegeben werden, explizit selbst Sprachsignale 
aufzunehmen und sie manuell Erkennungseintragen zuzuordnen. 
Dazu ist zu einem weiteren Erkennungseintrag ohne 
zwischengeschaltete Spracherkennung ein gewunschtes 
Sprachsignal eingebbar und abspeicherbar . 

Das Verfahren ist insbesondere ein Verfahren zur 
sprecherunabhangigen Namenswahl. Es lasst sich aber auch fur 
alle anderen Anwendungsgebiete der, insbesondere 
sprecherunabhangigen, Spracherkennung anwenden, bei denen 
eine Sprachrilckmeldung zur Realisierung eines "Full 
Hands free' -Modus benotigt wird, wie beispielsweise bei 
Command & Control, bei Sprachlinks (Voice Links), 
insbesondere bei der Internetnavigation, bei der Sprachwahl 
von Anwendungen (Speech Application Selection) und/oder bei 
der Spracheingabe von Stadt- und StraJiennamen (City Name 
Input) . 

Eine Vorrichtung, die eingerichtet ist und Mittel aufweist, 
das geschilderte Verfahren auszufuhren, lasst sich 
beispielsweise durch entsprechendes Programmieren und 
Einrichten einer Datenverarbeitungsanlage realisieren. Die 
Vorrichtung weist dabei insbesondere Mittel zur Eingabe des 
Sprachsignals, Mittel zum Erkennen des Sprachsignals durch 
Zuordnen zu einem Erkennungseintrag und Speichermittel auf , 



v 2003 P 03030 



4 

in denen das eingegebene Sprachsignal zu dem 
Erkennungseintrag abspeicherbar ist. Vorteilhafte 
Ausgestaltungen der Vorrichtung ergeben sich analog zu den 
vorteilhaften Ausgestaltungen des Verf ahrens . 

Die Vorrichtung ist insbesondere ein mobiles Endgerat, 
vorzugsweise eine mobile Kommunikationseinrichtung, etwa in 
Form eines Mobiltelefons und/oder PDAs oder eine mobile 
Navigationseinrichtung in Form eines Navigationssystems in 
einem Fahrzeug. 

Ein Programmprodukt fur eine Datenverarbeitungsanlage, das 
Codeabschnitte enthalt, mit denen eines der geschilderten 
Verfahren auf der Datenverarbeitungsanlage ausgefiihrt werden 
kann, lasst sich durch geeignete Implement ierung des 
Verfahrens in einer Programmiersprache und Ubersetzung in von 
der Datenverarbeitungsanlage ausf tihrbaren Code ausftihren. Die 
Codeabschnitte werden dazu gespeichert. Dabei wird unter 
einem Programmprodukt das Programm als handelbares Produkt 
verstanden. Es kann in beliebiger Form vorliegen, so zum 
Beispiel auf Papier, einem computerlesbaren Datentrager oder 
uber ein Netz verteilt. 

Weitere Vorteile und Merkmale der Erfindung ergeben sich aus 
der Beschreibung eines Aus fuhrungsbei spiels . 

Durch die Erfindung kann bei der sprecherunabhangigen 
Namenswahl ohne die Verwendung von TTS-Komponenten 
schrittweise eine SprachriAckmeldung kostengilnstig realisiert 
werden . 

Ein durch einen Benutzer gesprochener Name wird dazu bei 
einer Sprachwahl nicht nur dem Spracherkenner zugeftihrt, 
sondern er wird zusatzlich parallel auch als Sprachkonserve 
mitgeschnitten. Bei der erstmaligen Namenswahl eines 
Adressbucheintrages wird der vom Spracherkenner erkannte 
Namenseintrag optisch dem Benutzer im Display angezeigt. 
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Daruber hinaus wird der Benutzer akustisch mit einem 
Tonsignal auf gef ordert, das Erkennungsergebnis zu bestatigen 
Bestatigt der Benutzer das Ergebnis, wird der erkannte 
Adressbucheintrag gewahlt und die Aufnahme des eingegebenen 
Sprachsignals in Form der auf genommenen Sprachkonserve dem 
Erkennungseintrag in Form des Adressbucheintrages zugeordnet 
Bei jeder weiteren Namenswahl dieses Eintrages kann nun neben 
der optischen Rtickmeldung auch die zugeordnete Sprachkonserve 
als Sprachrtickmeldung verwendet werden. Der Benutzer wird 
dadurch sowohl visuell als auch akustisch iiber das 
Erkennungsergebnis informiert. Es lasst sich damit ein Full 
Handsfree-Modus erreichen, der eine korrekte, qualitativ 
hochwertige Sprachwidergabe besitzt. Durch die zuverlassig 
zugeordnete Sprachkonserve des Benutzers kann dabei auf die 
kostenintensive TTS-Komponente verzichtet werden. 

Die Erfindung beruht also auf einem selbstinitiierenden 
System, das auf der Kombination des Sprachmitschnittes bei 
der Spracherkennung und der zuverlassigen Zuordnung eines 
Sprachmitschnittes durch die Bestatigung des 
Erkennungsergebnisses basiert. 

Dies soli nochmals an einem weiter konkretisierten 
Ausfuhrungsbeispiel erlautert werden. In einem Mobiltelefon 
werden mittels eines sprecherunabhangigen, HMM-basierten 
Spracherkenners Funktionen der sprecherunabhangigen 
Namenswahl implementiert . Alle Namen im Adressbuch des 
Benutzers werden dem Spracherkenner uber eine Graphem-zu- 
Phonem-Technologie bekannt gemacht und konnen damit direkt 
per Sprache gewahlt werden. 

Im Initialzustand des Systems existieren keine 
Sprachkonserven zu den Adressbucheintragen. Bei Aktivierung 
der Funktionalitat zur sprecherunabhangigen Namenswahl wird 
der durch den Benutzer gesprochene Name dem Spracherkenner 
zugefuhrt und parallel als Sprachkonserve mitgeschnitten. Der 
Spracherkenner liefert das Erkennungsergebnis zuriick und es 
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wird uberprtift, ob zu dem Erkennungsergebnis bereits eine 
Sprachkonserve vorliegt. 

Existiert noch keine Sprachkonserve, wird das 

Erkennungsergebnis auf dem Display angezeigt und der Benutzer 
mit einem Voice Prompt wie zum Beispiel "Erkennung 
bestatigen" oder "Wahlen" auf gef order t, das 

Erkennungsergebnis zu bestatigen. Wird das Ergebnis durch die 
Taste "Wahlen" bestatigt, wird die Sprachkonserve dem 
Adressbucheintrag zugeordnet und die Nummer wird gewahlt. 
Wird das Ergebnis durch die Taste "Abbrechen" nicht 
bestatigt, wird die Sprachkonserve gelSscht und kein 
Wahlvorgang durchgefuhrt . 

1st zu einem erkannten Adressbucheintrag bereits eine 
Sprachkonserve zugeordnet, wird diese neben der 
Displayanzeige dem Benutzer vorgespielt. Der Wahlvorgang wird 
danach automatisch gestartet. Durch die Sprachrtickmeldung 
(Voice Feedback) hat der Benutzer auch im Hands free-Betrieb 
die Moglichkeit, einfach zu uberprtifen, ob das 
Erkennungsergebnis korrekt ist. Wahrend des gestarteten 
Wahlvorgangs bleibt dem Benutzer in der Regel genugend Zeit, 
den Wahlvorgang im Falle einer Fehlerkennung noch 
abzubrechen. 

Zusatzlich zu der oben beschriebenen automatischen Zuordnung 
von Sprachkonserven kann dem Benutzer die Moglichkeit 
angeboten werden, explizit selbst Sprachkonserven aufzunehmen 
und manuell zuzuordnen. 

Verwenden mehrere Benutzer ein Gerat, konnen Benutzerprof ile 
angelegt werden, bei denen fur jeden Benutzer individuell 
seine eigenen Sprachkonserven im jeweiligen Profil hinterlegt 
werden. Damit lasst sich ein Stimmenmix vermeiden und ein 
homogenes akustisches Klangbild erreichen. 
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Patent ansprtiche 



1. Verfahren zur sprecherunabhangigen Spracherkennung, 
insbesondere auf eingebetteter Hardware und/oder einem 
mobilen Endgerat, 

- bei dem ein erstes Sprachsignal eingegeben wird, 

- bei dem das eingegebene erste Sprachsignal aufgenommen wird 
und erkannt wird, indem es einem Erkennungseintrag zugeordnet 
wird, 

- bei dem die Aufnahme des eingegebenen ersten Sprachsignals 
als dem Erkennungseintrag zugeordnet gespeichert wird. 

2. Verfahren nach Anspruch 1, 

bei dem die Aufnahme des eingegebenen ersten Sprachsignals 
nur dann als dem Erkennungseintrag zugeordnet gespeichert 
wird, wenn bestatigt wird, dass das eingegebene erste 
Sprachsignal richtig erkannt wurde. 

3. Verfahren nach einem der vorhergehenden Ansprtiche, 

bei dem eine optische Representation des Erkennungseintrags 
ausgegeben wird. 

4. Verfahren nach einem der vorhergehenden Ansprtiche, 

- bei dem ein weiteres Sprachsignal eingegeben wird, 

- bei dem das weitere eingegebene Sprachsignal erkannt wird, 
indem es dem Erkennungseintrag zugeordnet wird, 

- bei dem die als dem Erkennungseintrag zugeordnet 
gespeicherte Aufnahme des eingegebenen ersten Sprachsignals 
ausgegeben wird. 

5. Verfahren nach einem der vorhergehenden Ansprtiche, 
bei dem zu einem weiteren Erkennungseintrag ohne 
zwischengeschaltete Spracherkennung ein gewtinschtes 
Sprachsignal eingebbar und abspeicherbar ist. 
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6. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem das Verfahren ein Verfahren zur Namenswahl, 
insbesondere fur eine Kommunikationseinrichtung, ist, 
insbesondere ein Verfahren zur sprecherunabhangigen 
Namenswahl . 



7. Verfahren nach einem der Anspruche 1 bis 5, 

bei dem das Verfahren ein Verfahren zur Eingabe von Stadt- 
und/oder StraBennamen ist, insbesondere ein Verfahren zur 
sprecherunabhangigen Eingabe von Stadt- und/oder 
StraBennamen. 

8. Verfahren nach einem der Anspruche 1 bis 5, 

bei dem das Verfahren ein Verfahren zur sprachgestutzten 
Applikationssteuerung ist. 

9. Verfahren nach einem der Anspruche 1 bis 5, 

bei dem das Verfahren ein Verfahren zur sprachgesteuerten 
Auswahl von Internet Links (Voice Links) ist. 

10. Vorrichtung, die eingerichtet ist und Mittel aufweist, 
dass ein Verfahren nach einem der Anspruche 1 bis 7 
ausfuhrbar ist. 



11. Vorrichtung nach Anspruch 10, 

die ein mobiles Endgerat ist, insbesondere eine mobile 
Kommunikationseinrichtung und/oder mobile 
Navigat ionseinrichtung . 

12. Programmprodukt, das, wenn es auf eine 

Datenverarbeitungsanlage geladen und darauf ausgefiihrt wird, 
ein Verfahren nach einem der Anspruche 1 bis 9 Oder eine 
Vorrichtung nach einem der Anspruche 10 oder 11 in Kraft 
setzt . 
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Zusammenf assung 

Sprachriickmeldung bei der sprecherunabhangigen Namenswahl 

Eine erstmalige Spracheingabe wird bei der Spracherkennung 
einem Erkennungseintrag zugeordnet und ihre Aufnahme zu 
diesem Erkennungseintrag abgespeichert, so dass sie bei 
weiteren Erkennungsvorgangen als Ruckmeldung ausgebbar ist. 



